Acquisition d'informations lexicales à partir de corpus Cédric Messiant et Thierry Poibeau

نویسندگان

  • Cédric Messiant
  • Thierry Poibeau
چکیده

Introduction L’existence de gros corpus (plusieurs millions de mots) et d’analyseurs syntaxiques performants fait qu’il est actuellement possible d’extraire automatiquement des connaissances à large couverture sur les mots et les constructions associées, directement à partir de corpus. Cette démarche permet d’obtenir des lexiques très complets à moindre coût, avec également des informations sur la fréquence et la productivité de différentes constructions, c’est-à-dire des données difficilement calculables à la main. Depuis une quinzaine d’années, plusieurs systèmes ont ainsi été conçus afin d’extraire automatiquement des informations sur la construction de mots essentiels du lexique, en général les verbes. On peut citer les travaux de (Brent (1993), Manning (1993), Briscoe and Carroll (1997), Korhonen (2002), Schulte im Walde (2002) parmi de nombreux autres. Nous avons nous-mêmes réalisé un système du même type pour le français, avec une première expérience qui s’appuie sur le corpus Le Monde (200 millions de mots, 1990–1999) et sur l’analyseur Syntex (Bourigault, 2007) pour inférer des connaissances sur la souscatégorisation de plus de 3000 verbes (Messiant et Poibeau, 2008 ; Messiant 2008). Le processus se décompose en 3 grandes étapes : 1) on rassemble d’abord l’ensemble des occurrences du verbe considéré ainsi que tous ses compléments, 2) on fait ensuite l’inventaire de toutes les constructions possibles pour le verbe considéré et enfin, 3) les constructions les plus rares sont éliminées, à partir de l’hypothèse qu’un nombre trop faible d’occurrences est le révélateur d’une erreur d’analyse (simple rencontre de surface). Tous les systèmes reposent sur cette architecture, même s’ils varient quant à la finesse de l’analyse considérée ou des stratégies de filtrage utilisées.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Lexical acquisition from corpora: the case of subcategorization frames in French

We present in this paper a method to automatically acquire a syntactic lexicon of subcategorization frames for French verbs directly from large corpora. The method is evaluated against existing lexical resources: we show that our system is capable of producing new frames that were not previously registered. Lastly, we show that it is possible to induce lexico-semantic classes « à la Levin » (19...

متن کامل

Automatic lexical acquisition from corpora: some limitations and tentative solutions

This paper deals with lexical acquisition. We take another look at some experiments we have recently carried out on the automatic acquisition of lexical resources from French corpora. We describe the architecture of our system for lexical acquisition. We formulate the hypothesis that some of the limitations of the current system are mainly due to a poor representation of the constraints used. F...

متن کامل

Evaluating resource acquisition tools for Information Extraction

This paper evaluates two different approaches for the elaboration of semantic classes. The framework is an Information Extraction, which needs large amount of domain-dependent resources. An endogenous approach (corpus-based learning) is contrasted with a heterogeneous one (the use of a large semantic network). The two techniques are evaluated. Cet article vise à évaluer deux approches différent...

متن کامل

Annotation de textes par extraction d'informations lexico-syntaxiques et acquisition de schémas conceptuels de causalité

Résumé. Nous présentons la méthode INSYSE (Interface Syntaxe SEmantique) pour l’annotation de documents textuels. Notre objectif est de construire des annotations sémantiques de ces résumés pour interroger le corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies. Notre approche est semi-automatique, centrée sur (1) l’extraction d’informations lexico-syntaxique...

متن کامل

Mise en lumière de relations sémantiques pour la construction d'ontologie à partir de textes

Résumé : La construction d’ontologies à partir de textes consiste à décrire des concepts par leurs relations conceptuelles et éventuellement leurs instances, à partir des matériaux textuels (termes, relations lexicales). Cet article propose une méthode pour mettre en lumière, par l’analyse de corpus, des relations lexicales susceptibles de donner naissance à des relations conceptuelles. Cette m...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • CoRR

دوره abs/0911.5568  شماره 

صفحات  -

تاریخ انتشار 2009